Nama:

(1) Lakukan EDA univariat untuk setiap kolom numerik pada employee.csv yang mencakup:

a. histogram dan boxplot untuk tiap kolom

b. metrik statistik dasar untuk tiap kolom: mean, std, min, q1, q2, q3, iqr, max

c. identifikasi nilai upper whisker dan lower whisker dari boxplot tiap kolom

d. apabila terdapat outlier (<q1-1.5iqr | >q3+1.5iqr): hitung count, proportion, dan list dari outlier tiap kolom

e. hitung metrik skew dan lakukan skewtest untuk tiap kolom

f. identifikasi hal yang menurut anda menarik dari hasil EDA yang Anda dapatkan

Kesimpulan : kesimpulan akan memperharikan outlier dan kesebaran datanya(skew)

- ada 9 kolom yang memiliki nilai outliner. berikut detail dari kolom tersebut
    - MonthlyIncome dengan jumlah 228
    - PerformanceRating dengan jumlah 452
    - StockOptionLevel  dengan jumlah 170 
    - TotalWorkingYears dengan jumlah 126
    - TrainingTimeLastYear dengan jumlah 476
    - YearsAtCompany dengan jumlah 288
    - YearInCurrentRole dengan jumlah 42
    - YearsSinceLastPromotion dengan jumlah 214
    - YearsWithCurrManager dengan jumlah 28
- ada 5 kolom yang memiliki skew negatif. hal ini dapat dilihat dari nilai skew yang negatif dan pvalue yang kurang dari alpha. berikut untuk nama kolomnya, EnvironmentSatisfaction, JobInvolvement, JobStatisfaction, RelationshipSatisfaction, WorkLifeBalance
- ada 14 kolm yang memiliki skew positif. hal ini dapat dilihat dari nilai skew yang positif dan memiliki pvalue yang kirang dari alpha. berikut menurpakan nama dari kolom tersebut, Age, DistanceFromHome, JobLevel, MonthlyIncome, NumCompaniesWorked, PrecentSalaryHike, PerformanceRating, StockOptionLevel, TotalWorkingYears, TrainingTimesLastYear, YearsAtCompany, YearsInCurrentRole, YearsSinceLastPromotion, YearsWithCurrManager

(2) Lakukan EDA univariat untuk setiap kolom kategorikal pada employee.csv yang mencakup:

a. countplot untuk tiap kolom

b. daftar kategori unik dan frekuensi tiap kolom

c. identifikasi hal yang menurut anda menarik dari hasil EDA yang Anda dapatkan

Kesimpulan :

- Ada beberapa kolom yang memiliki atribut yang imbalance seperti
    - Attrition yang memiliki terlalu banyak kategori No dari pada Yes
    - Overtime yang memiliki terlalu banyak kategori No dari pada yes
- kesimpulan yang bisa diambil dari kolom Over18 adalah semua karyawan sudah berusia diatas 18 tahun
- Sebagian besar karyawan sudah pernah menikah (married dan divorced) yang bisa dilihat di kolom MaritalStatus
- Tipe pekerjaan yang paling banyak dalam perusahaan adalah Sales Executive yang bisa dilihat di kolom JobRole
- Sebagian besar karyawan memiliki gender laki-laki yang bisa dilihat di kolom Gender
- sebagian besar karyawan tidak terlalu suka berpegian

(3) Lakukan EDA multivariat untuk tiap pasangan kolom numerik-numerik pada employee.csv yang mencakup:

a. scatterplot antar kolom numerik dengan kolom 'attrition' sebagai hue

b. identifikasi hal yang menurut anda menarik dari hasil EDA yang Anda dapatkan

Kesimpulan :

- dalam scatterplot pada gambar (1,1), (2,2), (3,3), dll. akan memperlihatkan pesebaran datanya 
- selain scatterplot pada gambar tersebut akan memperlihatkan korelasi datanya. jika terbentuk suatu grafik naik atau turun maka data tersebut memiliki korelasi yang tinggi

(4) Lakukan EDA multivariat untuk pasangan kolom numerik dan kolom 'attrition' pada employee.csv yang mencakup:

a. boxplot (atau variasinya) antara semua kolom numerik dan kolom 'attrition'

b. identifikasi hal yang menurut anda menarik dari hasil EDA yang Anda dapatkan

Kesimpulan :

- pada kolom JobStatisfaction, bisa dilihat bahwa sebagian besar attrition no akan memiliki tingkat kepuasan terhadap perusahan yang cukup rendah dan akan terbalik dengan attrition yes yang memiliki tingkat kepuasan terhadap perusahan yang tinggi. 
- berbeda dengan RelationSatisfaction, semua jenis attrition yes dan no akan memiliki tingkat kepuasan terhadap antar staff yang tinggi.
- pada kolom TotalWorkingYears, YeasAtCompany, YeasInCurrentRole, YearsSinceLastPromotion yang memperlihatkan berapa lama seorang staff bekerja dalam perusahan. dalam kolom tersebut dapat disimpulkan bahwa pada attrition yes akan memiliki jumlah tahun yang lebih sedikit dari pada attrion yes.

(5) Lakukan EDA multivariat untuk pasangan kolom kategorikal dan kolom 'attrition' pada employee.csv yang mencakup:

a. countplot untuk tiap kolom kategorikal dengan kolom 'attrition' sebagai hue

b. stacked barplot yang menunjukkan proporsi value pada kolom 'attrition' untuk masing-masing kategori untuk tiap kolom kategorikal

c. identifikasi hal yang menurut anda menarik dari hasil EDA yang Anda dapatkan

Kesimpulan :

- pada attrition no memiliki tingkat overtime yang sangat tinggi. 
- pada attrion yes, karyawan dengan status single yang memiliki tingkat yang lebih tinggi dari pada divorced dan married
- pada attrion yes di kolom JobRole, tingkat yang paling besar berada pada Sales Representative
- pada attrion yes pada kolom BusinessTravel, sebagian besar karyawan yang memilih yes sering melakukan perjalanan bisnis

(6) Lakukan independen t-test (2-sided) dengan ketentuan:

H0: Tidak ada perbedaan mean 'Total Working Years' antara karyawan yang keluar maupun menetap (gunakan kolom 'Attrition' sebagai acuan)

H1: Terdapat perbedaan mean 'Total Working Years' antara karyawan yang keluar maupun menetap (gunakan kolom 'Attrition' sebagai acuan)

alpha = 5%

Print hasil t-test dan tuliskan kesimpulannya.

(7) Lakukan one-way ANOVA dengan ketentuan:

H0: Tidak ada perbedaan mean 'Age' antara karyawan dari 3 departemen yang ada di dataset

H1: Setidaknya terdapat 2 departemen yang mean umur karyawannya berbeda

Print hasil one-way ANOVA dan tuliskan kesimpulannya.